Existen dos decisiones clave que debes tomar cuando quieres ejecutar un modelo de Gemma: 1) qué variante de Gemma quieres ejecutar y 2) qué framework de ejecución de IA usarás para ejecutarlo. Un problema clave para tomar estas decisiones tiene que ver con el hardware que tú y tus usuarios tienen disponible para ejecutar el modelo.
Esta descripción general te ayuda a tomar estas decisiones y comenzar a trabajar con modelos de Gemma. Los pasos generales para ejecutar un modelo de Gemma son los siguientes:
- Elige un framework para ejecutar
- Selecciona una variante de Gemma
- Ejecuta solicitudes de generación y de inferencia
Elige un framework
Los modelos de Gemma son compatibles con una variedad de frameworks de ejecución de IA generativa. Uno de los factores clave para tomar decisiones a la hora de ejecutar un modelo de Gemma es los recursos de procesamiento que tienes (o tendrás) disponibles para ejecutarlo. La mayoría de los frameworks de IA compatibles requieren hardware especializado, como GPUs o TPU, para ejecutar un modelo de Gemma de manera eficaz. Herramientas como Google Colab pueden proporcionar estos recursos de procesamiento especializados de forma limitada. Algunos frameworks de ejecución de IA, como Ollama y Gemma.cpp, te permiten ejecutar Gemma en CPUs más comunes con arquitecturas ARM o compatibles con x86.
Aquí tienes guías para ejecutar modelos de Gemma con varios frameworks de tiempo de ejecución de IA:
- Ollama
- Transformers de Hugging Face
- Biblioteca de Gemma para JAX
- Keras
- PyTorch
- API de inferencia de LLM de MediaPipe
- Transformers de Hugging Face
- Gemma.cpp
- vLLM
- Vertex AI de Google Cloud
- Google Cloud Run
- Google Cloud Kubernetes Engine (GKE)
Asegúrate de que el framework que elegiste admita el formato de modelo de Gemma que deseas implementar, como el formato nativo de Keras, Safetensors o GGUF.
Selecciona una variante de Gemma
Los modelos de Gemma están disponibles en varias variantes y tamaños, incluidos los modelos de Gemma básicos o principales, y variantes de modelos más especializadas, como PaliGemma y DataGemma, y muchas variantes creadas por la comunidad de desarrolladores de IA en sitios como Kaggle y Hugging Face. Si no estás seguro de con qué variante debes comenzar, selecciona el modelo de instrucción ajustado (IT) de núcleo Gemma más reciente con la menor cantidad de parámetros. Este tipo de modelo de Gemma tiene requisitos de procesamiento mínimos y puede responder a una amplia variedad de instrucciones sin requerir desarrollo adicional.
Ten en cuenta los siguientes factores cuando elijas una variante de Gemma:
- Gemma core y otras familias de variantes, como PaliGemma y CodeGemma: Te recomendamos Gemma (núcleo). Las variantes de Gemma más allá de la versión principal tienen la misma arquitectura que el modelo principal y se entrenan para tener un mejor rendimiento en tareas específicas. A menos que tu aplicación o tus objetivos se alineen con la especialización de una variante específica de Gemma, es mejor comenzar con un modelo principal o base de Gemma.
- Ajustado por instrucciones (IT), previamente entrenado (PT), ajustado con precisión (FT), combinado (mix): Recomendamos IT.
- Las variantes de Gemma ajustadas con base en instrucciones (IT) son modelos que se entrenaron para responder a una variedad de instrucciones o solicitudes en lenguaje humano. Estas variantes de modelos son el mejor punto de partida porque pueden responder a instrucciones sin necesidad de entrenar el modelo más.
- Las variantes de Gemma previamente entrenadas (PT) son modelos que se entrenaron para realizar inferencias sobre el lenguaje o sobre otros datos, pero no se entrenaron para seguir instrucciones humanas. Estos modelos requieren entrenamiento o ajuste adicional para poder realizar tareas de manera eficaz y están destinados a investigadores o desarrolladores que quieran estudiar o desarrollar las capacidades del modelo y su arquitectura.
- Las variantes de Gemma ajusadas con precisión (FT) se pueden considerar variantes de TI, pero, por lo general, se entrenan para realizar una tarea específica o para tener un buen rendimiento en una comparativa específica de IA generativa. La familia de variantes PaliGemma incluye varias variantes de FT.
- Las variantes mixtas de Gemma son versiones de modelos de PaliGemma que se ajustaron con una variedad de instrucciones y son adecuadas para el uso general.
- Parameters: Recomienda el número más pequeño disponible. En general, cuanto más parámetros tenga un modelo, más capacidades tendrá. Sin embargo, ejecutar modelos más grandes requiere recursos de procesamiento más grandes y complejos, y, por lo general, ralentiza el desarrollo de una aplicación de IA. A menos que ya hayas determinado que un modelo de Gemma más pequeño no puede satisfacer tus necesidades, elige uno con una pequeña cantidad de parámetros.
- Niveles de cuantificación: Se recomienda la precisión media (16 bits), excepto para la sintonización. La cuantificación es un tema complejo que se reduce al tamaño y la precisión de los datos y, en consecuencia, a la cantidad de memoria que usa un modelo de IA generativa para los cálculos y la generación de respuestas. Después de que se entrena un modelo con datos de alta precisión, que suelen ser datos de punto flotante de 32 bits, modelos como Gemma se pueden modificar para usar datos de menor precisión, como tamaños de 16, 8 o 4 bits. Estos modelos quantizados de Gemma pueden seguir teniendo un buen rendimiento, según la complejidad de las tareas, y usar muchos menos recursos de procesamiento y memoria. Sin embargo, las herramientas para ajustar los modelos cuantificados son limitadas y es posible que no estén disponibles en el framework de desarrollo de IA que elijas. Por lo general, debes ajustar un modelo como Gemma con precisión completa y, luego, cuantificar el modelo resultante.
Para obtener una lista de los modelos de Gemma clave publicados por Google, consulta la sección Cómo comenzar a usar los modelos de Gemma, en la lista de modelos de Gemma.
Ejecuta solicitudes de generación e inferencia
Una vez que hayas seleccionado un framework de ejecución de IA y una variante de Gemma, puedes comenzar a ejecutar el modelo y pedirle que genere contenido o complete tareas. Para obtener más información sobre cómo ejecutar Gemma con un framework específico, consulta las guías vinculadas en la sección Elige un framework.
Formato de la instrucción
Todas las variantes de Gemma ajustadas por instrucciones tienen requisitos de formato de instrucciones específicos. El framework que usas para ejecutar modelos de Gemma se encarga automáticamente de algunos de estos requisitos de formato, pero cuando envías datos de instrucciones directamente a un analizador de tokens, debes agregar etiquetas específicas, y los requisitos de etiquetado pueden cambiar según la variante de Gemma que uses. Consulta las siguientes guías para obtener información sobre el formato de las instrucciones del sistema y las variantes de Gemma: